Wstęp

Celem tego raportu jest zbadanie, które atrybuty dostarczonego zbioru danych mają największy wpływ na ilość wyprodukowanej energii przez panele fotowoltaiczne. Taka analiza, może usprawnić gospodarowanie energią np. w zależności od pory roku, lub godzin w trakcie dnia. Z przeprowadzonych badań wynika, że najważniejszymi atrybutami są nasłonecznienie, zachmurzenie i wilgotność.

Atrybuty i zbiór danych

Dostarczony zbiór danych zawiera 235790 obserwacji oraz 50 atrybutów.

Statistic N Mean St. Dev. Min Max
idsito 235,790 0.215 0.133 0.000 0.425
idmodel 235,790 0.243 0.172 0.000 0.750
idbrand 235,790 0.152 0.119 0.000 0.417
lat 235,790 0.450 0.038 0.415 0.553
lon 235,790 0.571 0.152 0.154 0.691
ageinmonths 235,790 0.314 0.378 0.000 1.000
anno 235,790 2,012.500 0.500 2,012 2,013
day 235,790 0.481 0.276 0.000 1.000
ora 235,790 0.500 0.304 0.000 1.000
temperatura_ambiente 235,790 0.373 0.172 0.045 0.818
irradiamento 235,790 0.109 0.134 0.000 0.710
pressure 235,790 0.650 0.258 0.000 0.769
windspeed 235,790 0.076 0.050 0.000 0.696
humidity 235,790 0.684 0.182 0.160 1.000
icon 235,790 0.462 0.308 0.000 0.750
dewpoint 235,790 0.606 0.096 0.139 0.865
windbearing 235,790 0.451 0.230 0.000 0.769
cloudcover 235,790 0.359 0.260 0.000 1.000
tempi 235,790 0.122 0.063 0.009 0.983
irri 235,790 0.222 0.012 0.108 1.000
pressurei 235,790 0.0002 0.004 0.000 1.000
windspeedi 235,790 0.039 0.005 0.000 1.000
humidityi 235,790 0.064 0.042 0.034 0.579
dewpointi 235,790 0.119 0.013 0.063 0.415
windbearingi 235,790 0.345 0.034 0.000 1.000
cloudcoveri 235,790 0.206 0.030 0.000 1.000
dist 235,790 0.469 0.297 0.000 1.000
altitude 235,790 0.546 0.181 0.111 0.884
azimuth 235,790 0.455 0.197 0.128 0.818
altitudei 235,790 0.206 0.149 0.000 0.982
azimuthi 235,790 0.365 0.182 0.000 1.000
pcnm1 235,790 0.422 0.204 0.000 1.000
pcnm2 235,790 0.354 0.214 0.000 0.972
pcnm3 235,790 0.604 0.217 0.000 1.000
pcnm4 235,790 0.519 0.256 0.000 1.000
pcnm5 235,790 0.416 0.250 0.000 1.000
pcnm6 235,790 0.494 0.239 0.000 1.000
pcnm7 235,790 0.114 0.225 0.000 1.000
pcnm8 235,790 0.403 0.264 0.000 1.000
pcnm9 235,790 0.537 0.262 0.000 1.000
pcnm10 235,790 0.628 0.212 0.000 1.000
pcnm11 235,790 0.324 0.207 0.000 1.000
pcnm12 235,790 0.757 0.229 0.000 1.000
pcnm13 235,790 0.650 0.200 0.137 1.000
pcnm14 235,790 0.489 0.184 0.000 1.000
pcnm15 235,790 0.571 0.205 0.000 1.000
irr_pvgis_mod 235,790 0.177 0.221 0.000 1.000
irri_pvgis_mod 235,790 0.197 0.053 -0.025 1.006
kwh 235,790 0.169 0.211 0.000 1.000

Podział atrybutów

Atrybuty z powyższej tabeli można podzielić na sześć grup:

  1. dotyczące czujników, takie jak identyfikator, marka, model, czy wiek. Cechy czujników zostały znormalnizowane do przedziału <0,1>.
  2. dotyczące obserwacji, id obserwacji, rok(anno), dzień(day), godzina(ora), łańcuch znaków data zawierający datę oraz godzinie w formie zrozumiałej dla człowieka, a także szerokość(lat) i długość(lon) geograficzną obserwacji.
  3. Dotyczące warunków atmosferycznych: atrybut icon (7 różnych wartości) sugeruje, że dane pogodowe mogły zostać pobrane z zewnętrznego serwisu, a icon jest ikonką pogody w danej chwili. Dodatkowo w zbiorze znajdują się bardziej szczegółowe cechy stanu pogody: temperatura powietrza, nasłonecznienie, ciśnienie atmosferyczne, prędkość wiatru, wilgotność, temp pkt rosy, zachmurzenie. Nasłonecznienie występuje dwa razy, jedna wartość została odczytana przez czujnik, a druga prawdopodobnie dostarczona przez serwis pogodowy.
  4. Dotyczące położenia słońca: azymut, wysokość (Słońca nad horyzontem), dist - prawdopodobnie odległość Słońca od Ziemi.
  5. Dotyczące autokorelacji przestrzennej: 15 atrybutów pcnm (Principal coordinates of neighbour matrices), dzięki czemu można rozważać korelację przestrzenną czujników. Atrybuty *i: prawdopodobnie wyliczone na podstawie pcnm, w celu zminimalizowania wpływu autokorelacji przestrzennej, znaczenie tych zmiennych jest identyczne z wyżej wymienionymi.
  6. Ilość wyprodukowanej energii
## $kwh
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.0000  0.0490  0.1688  0.3320  1.0000

Wykres wytwarzanej energii przez czujniki

Analizując wykres można zauważyć, że czujnik nr 10 wykazuje znacząco wyższą produkcję od pozostałych w 2012. Prawdopodobnie błędny odczyt. Czujniki ulegają awarii, miejsca awarii to gwałtowne spadki wyprodukowanej energii do 0, gdy pozostałe czujniki utrzymują wyższe wartości.

Brakujące dane

Podczas analizy okazało się, że zbiór zawiera błędy:
1. 34 daty zostały źle zapisane po konwersji na POSIXct, usunięte ze względu na małą liczbę obserwacji.
2. zerowa energia przy nie zerowym nasłonecznieniu, takie wartości zostały poprawione przy użyciu średniej wartośći energii z danej godziny w tygodniu wystąpienia.
3. niezerowa energia przy zerowym nasłonecznieniu, poprawione za pomocą średniego nasłonecznienia z danej godziny w tygodniu wystąpienia.

Korelacja

Na podstawie powyższego wykresu można zauważyć ze moc elektrowni(kwh) jest silnie dodatnio skorelowana z nasłonecznieniem. Jest to jak najbardziej logiczne, im więcej światła słonecznego tym więcej energii panele słoneczne są w stanie wyprodukować. Wilgotność jest negatywnie skorelowana z nasłonecznieniem i mocą elektrowni - zachmurzenie i opady deszczu ograniczają ilość światła doceriającego do ogniw fotowoltaicznych.

Regresory

Przed stworzeniem modelu regresji, usunięto ze zbioru danych obserwacje wadliwych czujników, aby wyniki były jak najdokładniejsze. Stworzono 3 modele za pomocą następujących algorytmów (nazwa: błąd średniokwadratowy):
* Linear Regression (lm): 0.108703
* Linear Regression with Forward Selection (leapForward): 0.1191402
* Least angle regression (lars): 0.1087247

Analiza modelu

## lm variable importance
## 
##   only 20 most important variables shown (out of 93)
## 
##                Overall
## irradiamento   100.000
## humidity        43.393
## anno            21.142
## altitudei       19.758
## azimuthi        18.945
## cloudcover      16.474
## altitude        16.288
## azimuth         15.986
## irri_pvgis_mod  13.491
## irri            10.893
## dewpoint         9.811
## day              8.061
## week52           6.160
## week51           6.050
## week50           6.048
## week49           5.975
## week46           5.622
## week53           5.580
## week48           5.565
## week39           5.442

Model regresji potwierdził, że najbardziej istotnym atrybutem jest nasłonecznienie, następnie wilgotność. Co ciekawe wśród mniej istotnych atrybutów, które mogę mieć wpływ na produkcję energii (azymut, zachmurzenie) znalazł się atrybut rok. Dalej wymienione atrybuty są znacznie mniej istotne w predykcji wyprodukowanej energii.